TraMineR: une librairie R pour l'analyse de données séquentielles
نویسندگان
چکیده
TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine des sciences sociales, telles que des trajectoires professionnelles ou familiales. Cependant, les méthodes sont applicables à tout type de données séquentielles ca-tégorielles. La librairie TraMineR offre un ensemble unique de fonctionalités dont de nombreuses ori-ginales. Elle s'intègre dans R, un logiciel libre, complet et multiplateforme offrant, par ailleurs, de nombreuses fonctions statistiques et graphiques avec lesquelles TraMineR peut interagir. Les fonctions de TraMineR permettent notamment de : – manipuler et transformer différents formats de données longitudinales ; – visualiser des séquences à l'aide de plusieurs types de graphiques ; – déterminer le centrotype et mesurer la diversité d'un ensemble de séquences ; – mesurer des caractéristiques longitudinales de séquences individuelles (longueur, durée par état, entropie, turbulence) ; – déterminer des caractéristiques de l'ensemble des séquences (entropie par âge, taux de transitions, durées moyennes dans chaque état, fréquences) ; – calculer la distance entre séquences à l'aide de plusieurs métriques (distance d'édition, plus longue sous-séquence commune, plus long préfixe commun) ; – analyser l'hétérogénéité des séquences (méthodes du type analyse de variance et arbre d'induction) ; – extraire les sous-séquences typiques d'événements ; – identifier les sous-séquences les plus discriminantes. La librairie est accompagnée d'un guide de l'utilisateur détaillé et illustré par de nombreux exemples que l'on trouve sur http://mephisto.unige.ch. TraMineR a été développé dans le cadre d'un projet de recherche sur la fouille d'histoires d'événements financé par le Fonds national suisse pour recherche scientifique.
منابع مشابه
Analyse de séquences d'événements avec TraMineR
Les méthodes de fouille de motifs séquentiels fréquents ont donné lieu, depuis le travail fondateur de Agrawal et Srikant (1995), à un grand nombre de travaux de recherche. La librairie TraMineR pour l’environnement statistique R cherche à rendre ces méthodes accessibles aux chercheurs de divers domaines désirant analyser ou visualiser des ensembles de séquences d’événements. Il est à noter que...
متن کاملL'analyse relationnelle de concepts pour la fouille de données temporelles - Application à l'étude de données hydroécologiques
Résumé. Cet article présente une méthode d’exploration de données temporelles, fondée sur l’analyse relationnelle de concepts (ARC) et appliquée à des données séquentielles construites à partir d’échantillons physico-chimiques et biologiques prélevés dans des cours d’eau. Notre but est de mettre au jour des sous-séquences pertinentes et hiérarchisées, associant les deux types de paramètres. Pou...
متن کاملMotifs récursifs : extraction ascendante hiérarchique d'ensembles d'items ou d'évènements pour le résumé de données transactionnelles ou séquentielles
Résumé. Nous proposons une méthode originale pour extraire un résumé compact, représentatif et intelligible des motifs fréquents dans des données transactionnelles ou séquentielles. Notre approche consiste à extraire un nouveau type de motifs que nous appelons motifs récursifs, i.e. des motifs de motifs, à l’aide d’un algorithme hiérarchique agglomératif nommé RepaMiner. Nous générons non pas u...
متن کاملClassification probabiliste non supervisée et visualisation des données séquentielles
Résumé. Nous proposons dans ce papier un nouvel algorithme de classification non supervisée à base de modèle de mélange topologique pour des données non i.i.d (non independently and identically distributed). Ce nouveau paradigme probabiliste, plonge les cartes topologiques probabilistes dans une formulation sous forme de chaînes de Markov cachées. Dans cette formulation, la génération d’une obs...
متن کاملSélection de modèles par des méthodes à noyaux pour la classification de données séquentielles
Ce travail concerne le développement de méthodes de classification discriminantes pour des données séquentielles. Quelques techniques ont été proposées pour étendre aux séquences les méthodes discriminantes, comme les machines à vecteurs supports, par nature plus adaptées aux données en dimension fixe. Elles permettent de classifier des séquences complètes mais pas de réaliser la segmentation, ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2009